#Gemini Pro
剛剛,OpenAI迎10周年,發GPT-5.2,重點是和白領搶工作
8大榜點選敗Gemini 3 Pro,打平71%人類專家,數學競賽滿分。智東西12月12日報導,今日凌晨,正值OpenAI十周年生日,OpenAI正式推出其迄今最強模型GPT-5.2,並同步上線ChatGPT與API體系。本次更新包含GPT-5.2 Instant、Thinking與Pro三個版本,將從今日起陸續向Plus、Pro、Business與Enterprise等付費方案使用者開放,Free與Go使用者預計將於明日獲得存取權。同時,GPT-5.2也已納入API與Codex中供開發者呼叫。▲圖源:X平台現有的GPT-5.1將在ChatGPT中繼續作為過渡版本向付費使用者提供三個月,之後將正式下線。OpenAI官方稱,GPT-5.2屬於其持續改進模型系列的一部分,後續仍將圍繞過度拒絕、響應延遲等已知問題進行迭代最佳化。在API端,GPT-5.2 Thinking對應gpt-5.2,Instant對應gpt-5.2-chat-latest,Pro對應gpt-5.2-pro,開發者可直接呼叫。▲圖源:OpenAI官方部落格在價格方面,GPT-5.2的呼叫價格較上一代上調,輸入端1.75美元/百萬tokens(約合人民幣12.35元/百萬tokens)、輸出端14美元/百萬tokens(約合人民幣98.81元/百萬tokens)。GPT-5.2 Pro的定價為21美元與168美元/百萬tokens(約合人民幣148元與1185元/百萬tokens),並首次支援第五檔推理強度xhigh。▲圖源:OpenAI官方部落格OpenAI聯合創始人兼CEO Sam Altman在社交平台X上公佈了GPT-5.2在多項前沿基準上的成績:SWE-Bench Pro達到55.6%,ARC-AGI-2為52.9%,Frontier Math為40.3%。▲圖源:X平台這些基準主要用於衡量模型在複雜程式碼修復、通用推理與高難度數學任務中的表現,GPT-5.2在高階任務上的穩定性進一步提升。根據OpenAI官方部落格,GPT-5.2在涵蓋44個職業的明確知識工作任務中,表現均優於行業專業人士。相比GPT-5.1 Thinking,GPT-5.2 Thinking在應對知識型任務、程式設計、科學問題、數學、抽象推理的多項能力均大幅提升,尤其是在頂尖數學競賽AIME 2025拿到滿分成績,在OpenAI專業工作基準測試GDPval中戰勝或打平70.9%的人類專家。▲圖源:OpenAI官方部落格OpenAI團隊成員Yann Dubois也在社交平台X平台上發帖稱,GPT-5.2 Thinking的設計重點放在“經濟價值較高的任務”(如編碼、表格與演示文件)。▲圖源:X平台此外,在SWE-Bench Pro、GPQA Diamond等8項基準測試中,GPT-5.2 Thinking的分數均超過GoogleGemini 3 Pro和Anthropic Claude Opus 4.5。▲圖源:OpenAI值得一提的是,GPT-5.2在處理多模態任務方面的能力明顯提升,大有追上Gemini的架勢。“頂流”AI程式設計助手Cursor第一時間宣佈上新GPT-5.2。與此同時,微軟董事長兼CEO Satya Nadella宣佈,GPT-5.2將全面進入Microsoft 365 Copilot、GitHub Copilot與Foundry等產品體系。▲圖源:X平台在GPT-5.2的發佈會上,OpenAI應用業務負責人Fidji Simo也確認,外界關注已久的ChatGPT“成人模式(adult mode)”預計將在2026年第一季度上線。Fidji Simo稱,在推出該模式前,OpenAI希望確保年齡預測模型足夠成熟,能夠準確識別未成年使用者,同時避免誤判成年人。目前,該年齡預測模型已在部分國家進行早期測試,主要用於自動應用不同的內容限制與安全策略。01.專業任務能力躍升首次達到“專家級”評分根據OpenAI官方披露,GPT-5.2 Thinking在覆蓋44類職業任務的GDPval評測中,首次達到“專家級”表現——在70.9%的對比中戰勝或持平行業專業人士。GPT-5.2 Pro進一步提升至74.1%。在僅統計“明確勝出”的任務中,GPT-5.2 Thinking為49.8%,Pro則達到60%。這一評測覆蓋銷售演示、預算模型、營運排班、製造流程圖等多類真實業務成果。GPT-5.2在這些任務的生成速度約為人工專家的11倍,成本為其1%以下。在投研類任務中,GPT-5.2 Thinking在內部評測的投行三表模型與槓桿收購模型等場景中的平均得分為68.4%,較GPT-5.1 Thinking的59.1%有明確提升,GPT-5.2 Pro得分進一步增長至71.7%。▲圖源:OpenAI官方部落格▲GPT-5.1 Thinking與GPT-5.2 Thinking效果對比02.程式碼、工具呼叫與長鏈路任務全面升級在程式碼能力方面,GPT-5.2 Thinking在更嚴格的SWE-bench Pro(跨四種語言、強調真實工程難度)中取得55.6%,在SWE-bench Verified中更是達到80%,均顯著領先GPT-5.1的50.8%與76.3%。在SWE-Lancer IC Diamond任務中,GPT-5.2 Thinking取得74.6%(GPT-5.1為69.7%)。▲圖源:OpenAI官方部落格與此同時,GPT-5.2出現在AI基準平台Imarena.ai(Arena)排行榜中,並在WebDev測試中取得1486分,位列第二,僅落後榜首3分,領先Claude-opus-4-5與Gemini-3-pro等主流模型。另一個版本GPT-5.2則以1399分排在第六。根據Arena說明,GPT-5.2此前在內部以“robin”和“robin-high”為代號進行測試,其分數與GPT-5-medium僅相差1分,目前仍為初步結果,未來有望隨著測試量積累而進一步穩定。從評測維度來看,Arena主要衡量模型在可部署Web應用情境下的端到端編碼能力,GPT-5.2已反映出其在複雜任務鏈條上的實用性。在事實精準性方面,GPT-5.2 Thinking在基於ChatGPT查詢的無錯誤回答率(開啟搜尋模式下)達到93.9%,較GPT-5.1的91.2%有所改善,在無搜尋情況下也從87.3%提升至88%。▲圖源:OpenAI官方部落格另一個關鍵變化來自工具呼叫與長鏈路任務的可靠性提升。GPT-5.2 Thinking在Tau-2 Bench Telecom中達到98.7%的最高得分,在零推理模式下也大幅領先上一代,在更高噪聲的Retail場景中精準率從77.9%提升至82%。在更通用的工具鏈評估BrowseComp中,GPT-5.2 Thinking達到65.8%,Pro版本達到77.9%,亦高於GPT-5.1的50.8%。▲圖源:OpenAI官方部落格OpenAI提到,GPT-5.2 Thinking和Pro均支援第五檔推理強度xhigh,適用於長流程、多步驟、高精度的專業任務場景。03.在長上下文與視覺理解GPT-5.2全面增強在長上下文能力上,GPT-5.2 Thinking在OpenAI MRCRv2中全面領先上一代,在8 needles測試中從4k到256k的範圍內均保持遠高於GPT-5.1的表現,其中在4k–8k長度下達98.2%,在128k–256k長度下仍保持77.0%,而GPT-5.1同期為29.6%–47.8%區間。在其他長文場景中,BrowseComp Long Context(128k/256k)中,GPT-5.2 Thinking分別達到92.0%與89.8%。GraphWalks任務中,GPT-5.2 Thinking在bfs與parents子集分別達到94.0%與89.0%,相比GPT-5.1的76.8%與71.5%顯著提升。▲圖源:OpenAI官方部落格在視覺理解上,GPT-5.2 Thinking在CharXiv科學圖表推理任務中無工具模式下為82.1%,開啟Python工具後進一步提升至88.7%。在ScreenSpot-Pro介面理解中,GPT-5.2 Thinking取得86.3%,遠高於GPT-5.1的64.2%。在視訊類、多模態綜合難度更高的Video MMMU中,也從82.9%提升至85.9%。在視覺能力上,GPT-5.2在ScreenSpot-Pro(介面理解)中達到86.3%的精準率,相比GPT-5.1有明顯提升。在CharXiv科學圖表推理任務中,也實現了準確率的大幅增長。這使其在處理科研圖表、營運儀表盤、產品介面截圖等專業視覺輸入時更加可靠。▲圖源:OpenAI官方部落格04.微軟全家桶同步升級GPT-5.2成為新一代“生產力模型”隨著GPT-5.2發佈,微軟董事長兼CEO Satya Nadella也在社交平台X平台上宣佈,GPT-5.2將全面進入Microsoft 365 Copilot、GitHub Copilot與Foundry等產品體系,並作為新的“默認推理模型”服務更多工作流場景。在Microsoft 365 Copilot中,使用者已經可以通過模型選擇器啟用GPT-5.2,用於會議記錄分析、文件推理、市場研究與戰略規劃等高複雜度任務。Nadella稱,將模型與使用者工作資料結合後,GPT-5.2能夠更充分發揮推理優勢。在GitHub Copilot中,GPT-5.2適用於長上下文推理與複雜程式碼庫審查,重點覆蓋跨檔案關係分析、依賴追蹤與重建構議等工程類使用場景。此外,GPT-5.2還同步進入Microsoft Foundry與Copilot Studio,開發者可在建構自動化流程、企業內部Agent或自主開發時直接呼叫GPT-5.2模型。面向消費者端的Copilot也將隨後啟動分階段更新,逐步替換當前版本。▲圖源:X平台從微軟生態的覆蓋面來看,GPT-5.2已被定位為“默認生產力模型”,在不同產品線之間以自動模型選擇的方式服務更廣泛的開發、寫作與分析任務。此外,頂流AI程式設計助手Cursor也已第一時間火速上線GPT-5.2,並同步沿用OpenAI官方API價格。▲圖源:Cursor05.結語:GPT-5.2的能力邊界正向“穩定、實用”收攏從多項公開基準測試到Arena針對Web應用端到端能力的評測結果,GPT-5.2展現出的整體能力向穩定可用和任務完成度方向收攏。隨著Instant、Thinking與Pro組成的多檔能力體系的開放,GPT-5.2在不同工作流中被切分為更清晰的使用場景。而在微軟生態中的全面接入,也進一步強化了這一變化的方向。無論是在M365 Copilot中承擔跨文件推理,還是在GitHub Copilot中處理長上下文程式碼鏈路,GPT-5.2都開始參與到更高頻、更具體的任務流程中。除了推出面向專業工作和智能體的前沿模型外,OpenAI還宣佈已經與迪士尼達成授權協議,允許Sora 2使用者在生成並分享的圖片中使用迪士尼角色。迪士尼將向OpenAI投資10億美元(約合人民幣71億元),並擁有未來增持股份的選擇權。 (智東西)
Nano Banana Pro 太火了,但生成的圖怎麼修改?
Nano Banana Pro 最近實在太火了,我看網友們都玩瘋了。我的評論區也炸了,其中一個問得比較多的問題是:生成的圖能修改嗎、怎麼修改?,所以這期就來聊聊到底怎麼改這些 AI 生成的圖。我向來有問必答,以解決網友痛點為己任,所以這期就來聊聊到底怎麼改這些 AI 生成的圖。01 在 Gemini 裡硬改?有點難大家應該知道,Gemini 裡面其實就有修圖,比如這張圖用 Gemini 生成後要修改:圖:Gemini 生成的圖現在想把 GUCCI 改成Nano Banana,我只需要直接說:把“GUCCI”換成“Nano Banana”,就可以了。圖:通過 Gemini 修改文字在一個連續的對話裡面,我們可以直接這樣操作,省去了下載再上傳的麻煩。但問題來了: Gemini 沒有“引用原圖”的功能。如果你聊嗨了,想修改好幾輪之前的圖,就還得乖乖下載再上傳。有點麻煩,但勉強能用。真正崩潰的是,這種方式只能做最最基本的操作。那怕需求稍微複雜一點點,它立刻就崩給你看。比如我想給她換雙指定的鞋子:圖:通過 Gemini 替換鞋子結果它給我輸出的是圖:Gemini 替換鞋子後海報翻車了鞋子是換了,但海報也毀了。其實目前的 AI 聊天式修圖大多如此。 雖然號稱“一句話修圖”,但本質上,這種方式不叫修圖,是重新生成一張圖。效果好不好?全靠“抽卡”運氣。02 終於找到了“手術刀”級的修圖難道沒有更好的方式嗎? 直到我試了下面這個操作:圖:在 Lovart 裡面精準修圖修改之後得到這張圖,效果可以用完美來形容。圖:Lovart 完美的完成了修圖這裡的操作可謂非常精準。注意看,我先選擇了要修改的部分,它自動識別並分離了元素。它精準地識別出了“鞋子”和“腳”,我直接勾選鞋子。然後選擇要替換的鞋子,這裡甚至能智能細化到“運動鞋”還是“鞋面”。圖:Lovart 裡面可以精細的選擇要編輯的對象也就是說,它本來只是要換個鞋子,結果這裡甚至能只換個鞋面!這麼牛逼且獨一無二的工具,必須再次安利給大家,那就是 Lovart。(https://lovart.ai)03 Touch Edit:這才是真正的生產力Nano Banana Pro 有多強,毋庸置疑。但如果加上一個同樣強的編輯工具,才能真正讓設計起飛,才叫真正能“幹活”。Lovart 這個 Touch Edit 實在是強大到離譜,而且操作巨方便。按住 ⌘ 鍵(Windows 用 ⌃),然後在任何需要修改的地方點選,它就能把那個地方標記好。圖:在 Lovart 中選擇編輯對象而且它會自動識別和分離那地方的元素,這樣我可以進行非常精細的修改。圖:在 Lovart 中選擇編輯對象更牛逼的是,我可以同時標記 N 個地方,然後一次把他們都改完。圖:在 Lovart 中一次編輯多個元素我只能說,這也太絕了!這理解能力簡直離譜!但你以為這就結束了?這才剛剛開始……這玩意不只讓我可以在單個圖裡面修,還可以跨圖編輯,這才是真正的降維打擊。圖:在 Lovart 中跨圖片編輯操作的結果是,得到一張這樣的圖:圖:跨圖片編輯的結果圖超級精準。人物形象完全沒變,墨鏡也完全移植過來了。 它的理解力,就跟人類設計師一樣,可以進行多種複雜的需求理解。比如下面這種操作,我覺得人類設計師都要思考一會兒,但它輕鬆搞定:圖:超複雜的跨多圖修改它就像人一樣把任務分解,做完第一步生成一張圖,然後做第二步,最終得到這樣的圖:圖:跨多圖修改的效果這個簡直無敵了。可以看到,這裡的編輯可以跨多個素材檔案,我可以分別使用每個素材的不同元素、構圖、色彩等等。如果沒有這樣的可視化操作介面,光在聊天框裡巴拉巴拉,根本無法完成。還有一個黑科技,之前也提過,就是可以把一張圖的各元素直接“炸開”,變成一個個的圖層,然後直接編輯它們!圖:Lovart 的元素分離並編輯分離後的元素另外告訴大家一件事:在 Lovart 裡面用 Nano Banana Pro 生成的圖都沒有水印!!04 總結有了 Lovart 這樣的工具,基本上可以做到隨心所欲的修圖。 而且,Lovart 上面幾乎整合了所有優秀的文生圖、文生視訊模型,一個訂閱就可以使用全家桶。並且我今天發現,他們居然因為黑五首次打折,會員最高 4 折。(好像到月底截止)我最近其實都是通過 Lovart 在使用 Nano Banana Pro,因為 Gemini 每天的額度根本不夠用。最良心的一點是:Nano Banana Pro 在這上面 365 天內不消耗積分。 🤣當然,Basic 及以上會員期間可以免積分使用 365 天的不只是 Nano Banana Pro,其他比如 Nano Banana / Seedream / Midjourney 這些頂尖模型也一樣。 (AI范兒)
李飛飛最新長文:AI很火,但方向可能偏了
AI很會說話,但還不會理解世界。前幾天,Google的Gemini 3 Pro發佈,朋友圈瞬間刷屏。很多人都在感嘆:Google一出手,就知有沒有。下一代模型,是不是參數更多?能支援更長的上下文?照這麼發展下去,是不是真的要實現AGI(通用人工智慧)了?但是,著名電腦科學家、美國國家工程院院士、史丹佛大學教授李飛飛卻不這麼認為。11月10日,她就發佈了一則長文,系統闡述了她對目前AI大模型的看法。總結一下,大概是:目前AI卷參數,卷演算法的方向,可能跑偏了。模型不理解世界,就實現不了真正的智能。為什麼這麼說?什麼又叫“理解世界”?這和我又有什麼關係?系統整理了一下我的理解,和你分享。大語言模型,就像讀了很多書,但沒出過門的秀才你一定知道ChatGPT,或者Google的Gemini。你也一定用過DeepSeek、豆包。這些產品背後的核心技術,都是大語言模型(LLM)。大語言模型做的事情,簡單來說,是“預測下一個詞是什麼”。你問它,“床前明月光”,它就能預測,後邊幾個詞大機率是“疑是地上霜”。靠著這種看似簡單的“接茬”能力,在吃下了大量資料之後,大模型已經進化到了驚人的地步。它能通過律師資格考試,也能做複雜的奧數題。那,這樣子下去,是不是很快就有能自主學習、完成任務的通用人工智慧了?不一定。雖然語言大模型看上去很厲害,但如果問它一些特別簡單的問題,比如,這輛車離那棵樹有幾米?這個箱子能塞進後備箱嗎?它卻大機率會瞎蒙,還會出現“杯子鬆手後飛上天”的情況。它們雖然懂物理公式,卻不懂物理常識。對此,李飛飛打了個比方。大概意思是,大語言模型,就像黑暗中的秀才(wordsmiths in the dark)。想像一下。有一位秀才,在一間黑屋子裡,讀過一萬本關於蘋果的書。他知道,蘋果通常和“紅”、“甜”、“圓”出現在一起,他知道,蘋果的化學分子式,牛頓被蘋果砸中的故事。如果讓他寫一篇關於蘋果的論文,他寫得不比專家差。但是,如果你把一個真的蘋果遞到他手裡,他卻不知道這是什麼。今天,語言大模型的“智慧”,本質上靠的是語言的統計規律,而並非紮根現實。這也解釋了,為什麼你的AI助手,動不動就會“胡說八道”。因為,如果AI只遵照語法通順,它完全可以認為,太陽會從西邊升起。即便這在物理世界裡,不可能發生。它讀了萬卷書,卻從未行萬里路。語言可以瞎編,但物理世界不會撒謊那怎麼辦?李飛飛說,這就要讓AI,掌握“空間智能”了。舉個例子。喝咖啡。你的大腦在這一瞬間,會處理很多資訊。你的眼睛,要判斷杯子和嘴邊的距離;你的手部肌肉,要根據杯子的重量,精確調整抓握的力度;你的皮膚,要感知杯壁的溫度,防止燙傷;你的手腕,要配合身體的傾斜,保持杯口的水平,防止咖啡灑出來。在這個過程中,你用到語言了嗎?你有沒有在心裡默念,把肱二頭肌收縮30%,手腕向左旋轉5度?沒有。整個過程,靠的是感知、想像、行動。這種“不通過語言,理解物理世界,和物理世界互動的能力”,就是空間智能。而李飛飛也認為,有了空間智能加持的AI,才會通向真正的,智能。因為智能的本質,是能在不確定的世界中持續預測、行動、達成目標。這不能靠大腦憑空產生。舉個例子。嬰兒是怎麼知道因果關係的?他坐在地上,把積木推倒,積木嘩啦一下散落在了地上。他覺得好玩,又推了一次。又是嘩啦一聲。一次次的物理互動中,他逐漸建立了一條神經連接:把積木推倒,必然導致“嘩啦”一聲。邏輯的雛形,因此開始。再舉個例子。沃森和克里克,是怎麼發現DNA雙螺旋結構的?要知道,當時他們手裡,只有一張像是模糊的“X”的照片。靠這張照片,推導不出DNA結構。沒辦法,他們只好像搭積木的小孩一樣,用金屬棒和鐵絲,試圖復現DNA的空間結構。直到某個瞬間,他們把模型轉到雙螺旋的角度,咔嚓一聲,一切都對上了。那一刻,他們沒有說話,但他們看到了生命的真相。偉大的發現,往往先在空間中成型,才被翻譯成語言。所以,李飛飛才會說:“看”和“動”,不是低級的本能,而是高級智能的基石。大自然花了 5 億年進化“視覺”,只花了最後幾萬年進化“語言”。因為感知世界,遠比描述世界要難得多,也重要得多。語言可以瞎編,但物理世界不會撒謊。AI的未來,或許是從預測下一個詞,到預測下一幀世界什麼是,預測下一幀世界?舉個例子。你手裡拿著一個玻璃杯,然後鬆開了手。現在,你的腦子裡是不是立刻就預測到了:杯子掉下去,砸在地上,摔碎了?你不需要等它真的碎,你的腦子已經預測到了。這就是“預測下一幀世界”。擁有了這個能力,AI不需要讀萬卷書來記住“火是燙的”,模擬與世界的互動,就能推匯出“手伸進火裡->皮膚燒傷”的物理必然性。預測下一個詞,遵循的是“語法邏輯”;而預測下一幀世界,遵循的是“物理邏輯”。這就是李飛飛認為,掌握空間智能的AI該做的事情。她把它稱為,世界模型。之前,如果你讓AI畫一個“凌亂的房間”,它會生成一張像模像樣的圖片。但是,你沒辦法看看桌子底下有什麼,把地上的髒衣服撿起來。但在世界模型生成的房間,你可以蹲下來看床底、拉開抽屜。因為房間裡有重力、有光影,還有遮擋關係。這和目前的AI視訊,也有本質區別。因為AI視訊,只是“看上去理解了世界”,本質上還是在黑屋子裡,預測下一個像素。比如,吃漢堡。雖然AI視訊可以預測到,當人的嘴到了漢堡上,漢堡大機率會變形、會缺少一塊,但它並不理解,漢堡為什麼是軟的,以及,人咬下一口之後,那一塊漢堡其實是到了人的嘴裡。它也沒辦法換個位置,看看漢堡的面包底是不是焦了。預測下一幀世界。理解了。可是,這要怎麼做到?語言,說白了就是一個詞接著一個詞,是一維的序列訊號。但世界是三維的,甚至還要加時間維度。重力決定了蘋果怎麼掉,原子結構決定了光線怎麼反射。要預測下一幀世界,就得讓語義、幾何、物理規律保持一致,這比處理語言複雜太多了。李飛飛也很坦率,聊了幾個他們團隊還在死磕的方向。比如,找公式。大語言模型之所以成功,是因為找到了一個簡單的任務函數:預測下一個詞。世界模型,也能找到這樣一個簡單優雅的公式嗎?目前還需要努力。比如,找資料。要訓練具有空間智能的世界模型,就得找到海量空間資料。去那找?他們正在開發一種,從網際網路上的二維視訊裡,提取空間資訊的演算法。過去的AI,是在用機率“猜”下一個詞;未來的AI,或許能用物理“算”下一幀世界。精確地把“想像”變成“真實”,也許是下個時代最大的機會之一李飛飛的World Labs,已經做出了一款叫Marble的產品。具體網址:https://marble.worldlabs.ai/。只要你提供一句描述,一張照片,它就可以生成一個可以探索的空間。我試著上傳了一張我們新辦公室的照片,沒想到還真能行。(圖片來自:Marble)是不是還挺有意思的?幾秒鐘內,它不僅識別出了裡面的桌子、椅子,還腦補出了空間位置。雖然還很粗糙。可能是我只上傳了一張照片的原因。那麼,如果未來的AI真的如李飛飛所說的那樣,有了空間智能,又意味著什麼?首先,對於普通人來說,是AI進入現實社會,所帶來的極大便利。一旦空間智能成熟,離機器人走入家庭,就真的不遠了。它能理解“花瓶是易碎的,要繞著走”;能理解“地上有水,要先拖干”。讓機器人幫你疊衣服、整理雜亂的玩具房、甚至照顧老人起居,將變成現實。甚至再進一步,讓奈米機器人在血管裡送藥。而當AI基於空間智能,掌握了從現實中抽象出規律的能力,它們或許,就能像牛頓和愛因斯坦一樣,擁有“科學家的直覺”。從而,真正發現規律、進行創新。接著,對於創業者來說,加持空間智能的AI,可能意味著一些新的機會。比如,真正“可控”的視訊生成。現在的視訊AI(比如 Sora),雖然厲害,但還是有點“抽盲盒”。它可以生成一隻貓。但你很難控制貓的走位、光影的角度。這對商業廣告、電影製作來說,就有點難操作。甲方要求臉必須再轉15%,你不能說“AI 隨機生成的我改不了”。李飛飛在訪談裡就舉了一個例子。他們和索尼的一家虛擬製作公司合作,用了Marble搭建場景,可以自由地選擇拍攝角度,生產效率提升了40倍。比如,做一些“想像成真”的ToC產品。例如,裝修。拍一張毛坯房的照片,說改成北歐風,暖色調。幾秒鐘後,你就可以得到一個可以到處走,還能修改沙發位置的虛擬樣板間。例如,3D相簿,給一張老房子的照片,就能得到一個3D空間。你可以看看桌上的擺設,看看牆上的掛曆,再次回到小時候。李飛飛提到了一個讓我特別意外的場景:心理治療。有團隊找上門,表示想用這個技術,來治療“恐高症”。通過瞬間生成的虛擬懸崖,就能幫病人一步步克服恐懼。又比如,賣合成資料,給做機器人的公司。本質上,這就是給機器人,開了一間學校。你不需要造機器人,你只需要生產特定領域的“教材”。比如,專門生產“怎麼修汽車”的資料,賣給修車機器人公司;專門生產“怎麼做手術”的資料,賣給醫療機器人公司。精確地把“想像”變成看得見、摸得著的“真實”,也許是接下來最大的機會之一。好了。總結一下。為什麼AI現在這麼厲害,但還是會犯一些低級錯誤?可能因為,它沒有真正理解世界,而只是在統計規律中找答案。所以未來,AI的發展方向,可能要拐一下,從預測下一個詞,到預測下一幀世界。也就是真正掌握,空間智能。那,這個方向對不對?會不會通向真正的智能?我不知道。但至少,這是一個值得嘗試的方向。因為目前的大語言模型,確實遇到了瓶頸。參數越來越大,算力越來越強,但一致性,總也沒有特別好的解決方案。而且,如果這個方向真的走通了,確實會帶來一些變化。機器人可能真的能進入家庭。甚至,AI可能真的能像科學家一樣,從現實中發現規律,而不只是從資料中總結規律。當然,這一切都還很早。Marble,還很粗糙。世界模型的“公式”還沒找到,空間資料也還不夠。但至少,通往智能的那個未來,又多了幾分念想。畢竟,科技進步從來不是一條直線。繞點遠路,沒啥。 (創業邦)
Google這本68頁提示詞手冊,才是Gemini 3 Pro 的完整體「附官方內功心法」
Gemini 3 Pro 必須是最近最熱門的話題。昨天在一個大佬的留言區看到有幾個人留言說:「Gemini 3 Pro 老理解錯意思」。我想可能不是它理解不了,是我們表達得不夠清楚。如果只能推薦一份關於Gemini 3 Pro 的進階指南,我會毫不猶豫地選擇這篇:Google官方68 頁提示詞工程手冊。它解決了一個最核心的問題:如何讓AI 精準理解你的意圖,不再「胡言亂語」。很多時候,你覺得Gemini 3 Pro 不好用,其實是因為你沒掌握那把「鑰匙」。這份文檔裡藏著讓AI 智商翻倍的秘密。我為你提煉了手冊中的十大核心心法。文末附電子書正本下載地址,建議先馬後看。十條最重要的提示工程“心法”1. 展示範例:告訴模型“照這個樣子做”(One-shot / Few-shot)解釋: 這是最重要、最強大的教學工具。與其只給模型指令,不如直接給它看你想要的格式和風格的完成範例。模型會模仿你提供的模式來產生結果。操作:提供一個(單次提示,One-shot)或多個(幾個提示,Few-shot)高品質的輸入/輸出範例。注意:如果你在做分類任務(例如:情緒是「正面」還是「負面」),請務必打亂範例中類別的順序,防止模型只是記住順序,而不是真正學會分類。2. 保持簡潔明了:要有明確的訊息解釋: 提示應該簡潔、清晰、易於理解。如果提示對你來說已經很困惑了,那麼模型也可能會感到困惑。避免使用複雜的字詞或提供與任務無關的不必要資訊。操作:使用描述具體行動的動詞來指導模型(例如:提取、分類、生成、總結)。不好: “我現在在紐約,和兩個三歲的孩子一起,告訴我一些好地方。”更好: 「扮演一名旅行向導。描述一些適合三歲孩子遊玩的紐約曼哈頓的好地方」。3. 具體說明你想要什麼結果解釋: 對模型的期望輸出要具體、明確。不要只給一個籠統的指令,要給出具體的細節要求,這樣能幫助模型集中註意力,提高整體準確性。操作:不: “寫一篇關於遊戲機的部落格文章。”要做: 「產生一篇3 個段落的部落格文章,內容關於5 個頂級遊戲機。文章必須是資訊豐富且引人入勝的,並以對話式的風格寫成」。4. 優先使用“要做什麼”,少說“不要做什麼”解釋: 盡量使用正向的指導性指令(告訴模型應該做什麼),而不是負面的限制(告訴模型不應該做什麼)。這與我們自己溝通的時候偏好正面指令的習慣一致。操作:指示優先: 清楚說明你想要的結果(例如:「只討論遊戲機、製造商、年份和總銷售量」)。限制次之: 限制(例如:「不要列出遊戲名稱」)僅在特定情況下使用,例如涉及安全、清晰度或嚴格的格式要求時。5. 為模型設定身份和背景(角色、情境提示)解釋: 給模型一個“人設”或“背景”,這能幫助它以正確的語氣、風格和專業知識來回答問題。操作:角色提示: 賦予模型一個身份(例如:「我希望你扮演一位幽默的旅行向導」)。情境提示: 提供與任務相關的具體背景資訊(例如:「情境:你正在為一個關於80 年代復古街機遊戲的部落格寫文章」)。這就像給演員一個劇本和角色說明,確保他們的表演符合預期。6. 引導模型逐步思考(思維鏈CoT 與回退提示)解釋: 對於複雜的任務(例如推理、數學題或程式碼生成),不要直接要求模型給答案,而是要求它「一步一步地思考」。這能提高複雜問題的準確性。操作:思考鏈(CoT):  在提示末尾加上讓我們一步一步地思考 。回退提示(Step-back): 鼓勵模型先思考一個更一般、更抽象的原則或問題,然後利用這個啟動的背景知識來解決具體的任務,從而提高洞察力。注意: 推理任務通常也可以直接告訴模型你在推理。7. 嘗試結構化輸出格式(使用JSON 或XML)解釋: 對於資料擷取、分類或排序等非創意性任務,要求模型傳回結構化格式(如JSON 或XML)的資料。操作:要求返回JSON 格式最大的好處是:它強制模型創建結構,並且可以極大地限制模型胡編亂造(限制幻覺)。如果輸出被截斷導致JSON 無效,可以使用像json-repair 這樣的工具來嘗試自動修復。8. 調整配置來控制“創造力”解釋: 提示工程不僅是寫好提示詞,還需要調整模型的「旋鈕」來控制輸出的隨機性和多樣性。操作:低溫(0 - 0.2): 適用於需要確定性、事實性或嚴格邏輯的任務(如數學題或資料擷取)。高溫度(0.9): 適用於需要多樣性或創造性的任務(如寫故事或腦力激盪)。注意:其實像Gemini ,我們日常對話時,這個是不可見也不可調整的,大模型會自己根據情況進行調整。9. 明確控制回答的長度解釋: 控制模型生成文字的長度,可以節省運算資源、提高速度並降低成本。操作:在模型配置中設定最大Token 限制。在提示中明確要求(如:「用一則推文的長度解釋量子物理學」)。10. 詳細記錄每一次嘗試解釋: 提示工程是一個迭代的過程,你需要不斷嘗試和最佳化。像科學家做實驗一樣,你需要完整記錄所有細節,這樣你才能學習、調試,並在未來再次使用。操作:記錄內容包括:提示的名稱和目標、使用的模型版本、完整的提示文字、所有的配置以及輸出結果。使用結構化的方式(如表格)來管理這些記錄,以便在模型更新或需要重新測試時,可以輕鬆追溯。資料下載《Prompt Engineering》Google官方手冊下載地址:https://www.kaggle.com/whitepaper-prompt-engineering (許良學AI)
Google發了個逆天“外掛”,要把中年男人幹失業了…
每隔一段時間黑馬就會去比較當下那些大模型比較好用。但大部分時候,大家的差距拉的並不大,我使用的時候更多的考慮還是那個比較方便。結果就在今天凌晨,Google發布了Gemini 3 Pro,據說強的一匹。本來我還有點將信將疑的,結果早上瀏覽資訊的時候,發現鋪天蓋地都是“自來水”,我就知道這事兒不簡單。出於內容創作者的好奇心和對AI工具的旺盛需求,我馬上趕到現場體驗了一波。在https://aistudio.google.com/,選擇Gemini 3 Pro就可以開用了。然後我就詞窮了…布希鴿們兒,你們AI現在都發展到這個程度了嗎?第一次覺得自己語言如此匱乏。簡單來說,這是我見過最全能最好用的大模型,即使我腦子空空啥想法都沒有,我只說一句話:我要一個xxxx,它都能給你搞出來個像模像樣的東西。例如我讓它複製一個小米汽車官網的首頁,提示字就很簡單的一句話:全程耗時不到一分鐘,我就拿到完整的HTML程式碼。這是它給我的效果:做了自動切換的效果,圖片它還專門強調了是自己生成的(所以為什麼圖片牆上是特斯拉)。PS:有素材可以直接把素材餵給它,沒有的話也可以讓它自己生成。我還讓它用類似的風格生成給法拉利也產生了一個網頁:然後,我又試了一下讓它幫我做了一個履歷作品集。把文章連結全部丟給它,簡單描述了一下我想要的風格,一分鐘左右我就得到了一個簡單的網頁——滑鼠懸停時有光影效果,點擊可以跳轉看文章內容。如果想要修改效果,也可以繼續在對話框裡調整。同樣的作品集網站我之前讓釦子也給我生成過一個,但釦子花費的時間更久,審美風格更單調,bug相對也要多一點,需要更細緻的調整。除了簡單的網站,Gemini 3 Pro還可以建構場景模型,雖然只能產生簡單的體素方案,場景和主體仍停留在像素塊層面,也看不到啥細節。但場景邏輯是符合我的描述的,互動體驗也是很絲滑的,你還可以自由滑動放大縮小查看場景的各種細節。除了這些之外,我還看到有網友讓Gemini 3 Pro做了一個公眾號封面產生器,於是我讓它也為我做了一個。它直接為我找了個免費的AI繪圖介面,這樣我不需要自己部署API,直接打開網頁輸入關鍵字就可以生成圖片,這個網頁還可以根據公眾號封面尺寸自動裁剪圖片。我試了一下,居然真的能用。就是免費的介面效果極差,本來今天還想偷個懶,看來是偷不成了。除此之外,Gemini 3 Pro復刻小遊戲也無比絲滑,我跟它說「復刻一個超級瑪利歐網頁遊戲,圖片素材自己生成」,幾十秒鐘一個簡單的小遊戲就搞定了,互動十分絲滑。我還看到X 的網友讓Gemini 3 做了個3D樂高編輯器,一次實現了使用者介面、程式碼建置和他需要的各項功能。還有網友用它產生了網頁音樂播放器、Windows的Web OS、植物大戰殭屍,無疑都能得到非常滿意的效果。而且以上黑馬嘗試所有案例,全都是Gemini 3 Pro一遍就給跑出來的,大部分內容花費的時間都不超過一分鐘。連做遊戲這種程式碼比較複雜的耗時也不過兩分鐘。我只需要口述我的需求,Gemini 3 Pro就能快速給到各種形式的內容,產生的效果取決於我的表達能力、描述的精準度和提供的素材完善程度。這效果我真的沒話說了。說是編程,感情說了半天成了語文能力的對決。Google曬出了Gemini 3 Pro的成績單,幾乎所有專案都碾壓了Claude Sonnet 4.5 和GPT-5.1。例如偵測AI 抽象推理能力的高難度測驗ARC-AGI-2,Gemini 3 Pro 以31.1% 的成績斷層領先第二名的Claude Sonnet 4.5的13.16%。還有看懂螢幕介面並操作(ScreenSpot-Pro ),和AI 在複雜長程任務和跨場景下的任務執行能力( Vending-Bench 2)方面,Gemini 3 Pro也是斷層性的領先。這件事蘋果的餅畫了快兩年了都還沒動靜,Google已經領先一步直接上桌了。這種全面的大幅度領先真的很恐怖,這意味著大部分人可以用AI搭建自己的內容,部分簡單的前端工作AI完全可以替你包圓。怪不得山姆奧特曼都跑出來恭喜Google。Google也宣佈「以整個公司的量」發布Gemini 3系列模型,包括首次在發布當天就將Gemini整合進搜尋,上線獨立APP,也推出全新的智能體開發平台。之後還有一個更強Gemini 3 Deep Think深度思考模式,正在路上。(說是還在預訓練)但對我來說,今天的體驗已經很酷了。對了,前端兄弟們,你們還好嗎?(黑馬公社)
大漲超4%!Google再創歷史新高!圖像生成模型 Nano Banana Pro上線,深度結合Gemini 3,這下生成世界了
繼前日Gemini 3推出後,GOOGLE股價創歷史新高後,今日Google股價再次大漲超4%,再創歷史新高!三個月前,來自Google AI Studio 負責人 Logan Kilpatrick 的一個香蕉表情暗示了現象級圖像生成模型 Nano-banana 出自Google,引發了軒然大波。Nano-banana,也就是 Gemini 2.5 Flash Image 模型,有多猛大家也不陌生了。無論是修復老照片,還是生成迷你手辦,Nano Banana 在圖像編輯方面邁出了重要一步,讓普通創作者也能輕鬆表達創意。我們也曾經翻遍全網,整理了 7 種體現奈米香蕉超強圖像理解生成能力的趣味玩法,感興趣的讀者可以回顧一下。就在前兩天,Gemini 3 發佈前,Logan Kilpatrick 故技重施,點燃了大家對新模型的期待。結果今天下午梅開三度。網友說:「停停」。在 Gemini 3 重磅登場後,Google的王炸模型只剩下了那支傳說級的香蕉。不出所料,就在剛剛,Google最新,最強大,最全面的圖像生成模型 Nano Banana Pro(Gemini 3 Pro Image)正式登場,掛上了「專業級」後綴的奈米香蕉,結合了 Gemini 3 Pro 的強大推理能力和世界知識,實力再次實現了飛躍。簡而言之,Nano Banana Pro 主要 Pro 在 :前所未有的控制力、完美的文字渲染效果和更強的世界知識,具備打造工作室等級的設計作品的生成能力。前所未有的控制力高解析度作為一款圖像生成模型,Nano Banana Pro 這次最直觀、最能有感的基礎能力升級,是能夠生成 2K 和 4K 的高解析度圖像。圖像像素量有顯著的提升,意味著模型必須同時在細節刻畫、畫面精度、生成穩定性、一致性以及可控性上全面升級。除此以外,Nano Banana Pro 支援了廣泛的圖像長寬比,解決了基礎款 Nano Banana 使用時很難控製圖像比例的痛點問題,尤其是在 Gemini 對話中明確要求圖像比例時,Nano Banana 仍不能生成對應長寬比的圖像。Nano Banana Pro 生成不同比例的超高畫質圖像得益於多種可用的長寬比和 2K / 4K 高解析度,Google聲稱:「作品可以直接用於任意平台,從社交媒體到印刷物料。」更強大的一致性Nano Banana 火遍全網,其中最重要的原因就在於它令人驚嘆的視覺一致性控制。舉個大家最熟悉的例子:只需上傳一張簡單的服裝圖和人物照片,再配上一兩句限制性文字指令,它就能快速精準地將元素融合,輕鬆生成風格統一、構圖自然,並且保持人物和服裝一致的 OOTD 合成照。感興趣的讀者可以看看我們這一篇報導,輕輕鬆鬆做一名時尚博主。而使用 Nano Banana Pro,你可以融合比以往更多的元素:最多使用 14 張參考圖像,保持多達 5 個人物 的一致性與相似度。讓我們簡單來看兩個實例:Prompt: Combine these images into one appropriately arranged cinematic image in 16:9 formatPrompt: A medium shot of the 14 fluffy characters sitting squeezed together side-by-side on a worn beige fabric sofa and on the floor. They are all facing forwards, watching a vintage, wooden-boxed television set placed on a low wooden table in front of the sofa. The room is dimly lit, with warm light from a window on the left and the glow from the TV illuminating the creatures’ faces and fluffy textures. The background is a cozy, slightly cluttered living room with a braided rug, a bookshelf with old books, and rustic kitchen elements in the background. The overall atmosphere is warm, cozy, and amused.效果非常令人驚訝,Nano Banana Pro 不僅可以保留參考圖片中的物體和人物特徵,更能夠理解參考圖片中的背景圖像資訊,理解光影、材質和圖像結構,深刻洞察使用者的設計意圖。那怕高達 14 張參考圖像,Nano Banana Pro 都能夠在新圖像中保留全部的細節。不管是將一張隨手勾勒的手繪草圖變成可落地的實體產品,還是把技術藍圖轉化為質感逼真的 3D 結構,Nano Banana Pro 都能幫你輕鬆跨越那道長期存在的從想像到落地的鴻溝。此外,在設計領域中,Nano Banana Pro 也可以為設計稿一鍵套入理想的視覺風格,包括品牌主視覺、潮流配色,不同材質和質感的測試效果,它都能快速生成。最終呈現的結果在所有關鍵特徵上都能保持高度統一,從電商圖到宣傳海報,從社交內容到實體包裝,毫無割裂感。相比 Nano Banana 更強的一致性控制,遠遠拓展了參考圖生成的上限,創造了更多玩法可能。更靈活的創意控制借助 Nano Banana Pro 的全新能力,高級圖像編輯不再是專業團隊的專屬 —— 真正的創意控制權被交回到使用者手中。使用者可以對畫面進行近乎「分子級」的操控:自由選取並重塑圖像任意局部區域,實現精準微調切換攝影機角度,快速生成不同視角與構圖調整焦點位置,打造更具敘事感的畫面重心應用電影工業級調色,一鍵改變視覺氣質重塑場景光照,從白天到夜晚、從硬光到散景過渡皆可瞬時完成這些能力讓 Nano Banana Pro 從簡單的圖像生成工具,躍升為一個能夠支援創作者進行分鏡級、視覺導演級創作的圖像引擎。視訊中也簡單演示了從一張圖像,到天氣的重塑,最後使用 Veo 3 模型生成極具電影風格的視訊的全過程。下面兩個示例不僅能夠展示 Nano Banana Pro 強大的創意控制能力,也展開了結合首尾幀視訊生成的全新可能。Prompt: change lighting of this portrait to from the left, diffused and softPrompt: Focus on the flowers文字與知識大師輕鬆拿捏文字生成我們知道,在圖像生成模型中,生成文字一直是一個難點。Nano Banana Pro 正是在這一痛點上實現了再一次迭代:它具備非常強大的文字生成能力,能夠生成包含更準確、清晰可讀、多語言文字的視覺內容。Nano Banana Pro 是生成圖像內可讀文字的最佳模型,無論你需要的是一句簡短標語還是一整段較長文字,都能夠清晰,完整,合理的生成,並且與圖像內容完美融合。Prompt: make 8 minimalistic logos, each is an expressive word, and make letters convey a message or sound visually to express the meaning of this word in a dramatic way. composition: flat vector rendering of all logos in black on a single white backgroundPrompt: Create an image showing the phrase "How much wood would a woodchuck chuck if a woodchuck could chuck wood" made out of wood chucked by a woodchuck.現在我們可以在視覺設計或海報中建立帶有更多細節的文字,具備更廣泛的紋理、字型與創意樣式。另外,憑藉 Gemini 的增強多語言推理能力,我們可以通過 Nano Banana Pro 生成多語言文字,或對內容進行本地化與翻譯,從而實現全球化擴展,或更輕鬆地與朋友和家人分享內容。就比如將飲料瓶上的英文翻譯成韓語,並且無縫的合成在原文字的位置,還能保證超高品質的細節和字型風格。Prompt: translate all the English text on the three yellow and blue cans into Korean, while keeping everything else the sameGemini 3 賦能知識庫由於和 Gemini 3 大模型的深度融合,可以借助 Gemini 3 的高級推理,Nano Banana Pro 不只是生成漂亮的圖像,它還能幫助你建立更有用的內容。Nano Banana Pro 將龐大的知識庫融入生成過程,能夠比以往的圖像生成模型產出更具事實精準性的視覺內容。此外,在啟用相關能力時,通過與 Google 搜尋的檢索基座相結合,模型可以連接到即時的網頁內容,生成基於最新資料的輸出。於是我們可以獲得準確的解釋內容,進一步理解一個事實主題,並且生成語境豐富的資訊圖和示意圖。這對於需要精確呈現現實資訊的應用場景尤為重要,如生物學示意圖或歷史地圖。Nano Banana Pro 生成的製作荳蔻茶的教學圖片更進一步,Nano Banana Pro 還具備根據內容自動生成 PPT 頁面的能力無論使用者提供的是一段文字、幾條要點,還是一篇長文,模型都能自動理解內容和結構,生成對應演示文件圖像。實現了「從文字到展示」的流程自動化與智能化的實用進步。隱形水印,快速驗證Nano Banana Pro 的圖像生成能力再次進化後,生成圖像和真實圖像愈發難以區分。但Google在這次更新發佈後,對 AI 圖像鑑別採取了新的方法,提高內容來源的透明度。Gemini 應用中現在加入了一項新功能:使用者可以直接驗證某張圖像是否由 Google AI 生成或編輯。從今天開始,使用者可以直接在 Gemini 應用中驗證某張圖像是否由 Google AI 生成或編輯。如果你看到一張圖像並希望確認它是否由 Google AI 生成,只需將其上傳至 Gemini 應用,並提出類似於:「這是由 Google AI 生成的嗎?」的問題,就可以獲取準確的答案。這一能力由 SynthID 實現,這是Google的數字水印技術,它將不可察覺的訊號嵌入到 AI 生成內容中。Google在 2023 年推出 SynthID。自那以來,已有超過 200 億份 AI 生成內容通過 SynthID 加上水印。Gemini 會檢測圖像中的 SynthID 水印,並結合自身的推理能力,為使用者提供結果,使使用者更瞭解你在網上看到的內容的背景。不久後,Google將擴展 SynthID 驗證能力,支援包括音視訊在內的更多格式,並讓這些能力覆蓋更多產品,如搜尋等。作為此次發佈的一部分,從今天起,通過 Gemini、Vertex AI,Google ADs、Flow 生成的 Nano Banana Pro(Gemini 3 Pro Image)圖像都將嵌入 C2PA 中繼資料,進一步提升圖像生成方式的透明度。面向各類使用者上線Google表示,會在多個原本支援舊版本模型的 Google 產品中上線 Nano Banana Pro:面向消費者與學生在 Gemini App 中,當你選擇 「Create images」並使用 「Thinking」模型時,將在全球範圍內陸續上線。免費使用者會獲得有限的免費額度,用完後將回退至原版 Nano Banana 模型。Google AI Plus、Pro 和 Ultra 的訂閱使用者將獲得更高額度。在搜尋的 AI Mode 中,Nano Banana Pro 將向美國的訂閱使用者提供。NotebookLM 中,Nano Banana Pro 也將向全球訂閱使用者提供。面向專業人士Google Ads 將升級圖像生成功能至 Nano Banana Pro,讓廣告主可在 Asset Studio 中使用最前沿的生成與編輯能力。同時,它也將從今天開始陸續向 Workspace 使用者推出,包括 Google Slides 和 Google Vids。面向開發者與企業可通過 Gemini API 與 Google AI Studio 訪問,並可在 Google Antigravity 中用於建立豐富的 UX 佈局與原型。企業可立即在 Vertex AI 中開始大規模內容創作支援,並且即將登陸 Gemini Enterprise。面向創意人士Nano Banana Pro 將提供給使用 Flow 的 Google AI Ultra 訂閱使用者,為創作者、導演與行銷團隊提供更精準、更可控的鏡頭與場景生成能力。Gemini 2.5 Flash Image 和 Gemini 3 Pro Image 模型可通過 Gemini API、Google AI Studio 和 Vertex AI 以付費預覽形式使用。使用 Nano banana (Gemini 2.5 Flash Image)獲取更快、更低成本的圖像生成/編輯;使用 Nano banana Pro(Gemini 3 Pro Image)處理更加複雜、要求更高的任務,但成本與延遲也更高。 (invest wallstreet)
Google驚豔表現背後,TPU+OCS才是殺手鐧?
券商建議重視Google AI算力產業鏈和OCS技術創新帶來的投資機會。美東時間11月19日,Google美股收漲3%,盤中漲幅一度接近7%,創下近兩個月以來最大漲幅,股價創下歷史新高。其昨日發佈的Gemini 3 Pro在多方評測中都備受好評,測試資料在一眾大模型中一騎絕塵。羅伯特•貝爾德公司分析師Colin Sebastian指出,“除了在搜尋參與度和盈利能力方面的優勢外,Google還將即時網路索引與先進模型訓練結合,我們認為這是關鍵的競爭優勢。”在這次Gemini 3中,Google再次驗證了自己的“全端”能力,其中硬體上使用自家TPU訓練。日前Google正式發佈第七代TPU Ironwood,該晶片將於未來幾周內正式上市。這款晶片由Google自主設計,可處理從大型模型訓練到即時聊天機器人和AI智能體運行的各種任務。該晶片最初於今年4月亮相,用於測試與早期部署。Google稱,與TPU v5p相比,Ironwood的峰值性能提升至10倍;與TPU v6e相比,其單晶片在訓練和推理工作負載下的性能均提升至4倍以上。新一代Ironwood TPU可在單個叢集中連接多達9216顆晶片,從而消除“最複雜模型中的資料瓶頸”,借助Ironwood,開發者還可以利用Google自己的Pathways軟體堆疊,可靠、輕鬆地利用數萬個Ironwood TPU的綜合計算能力。架構上,Google借助OCS組網提高了叢集整體效率。OCS交換機利用光訊號直接傳輸資料,避免了訊號的轉換過程,從而減少了延遲和能量消耗,因此適用於大規模資料中心之間的高速互聯,尤其是在跨區域擴展和大規模AI算力需求下表現出極大優勢。券商指出,相比而言,雖然單卡維度上輝達仍有優勢,但系統維度上Google借助超大規模叢集利用OCS將效率大大提升。Ironwood沿用過去三代的3D Torus拓撲, 每個邏輯單元為4×4×4節點陣列,即64晶片,封裝於單個機架。立方體上有6個面,每個面有16個連結,通過ICI連接,共96根光纖,80根銅線和64根PCB走線,叢集採用48台OCS光交換機進行互聯,實現9216個TPU晶片組網。2026年GoogleTPU出貨量相較2025年接近翻倍,且預期出貨量遠高於其他ASIC晶片。值得一提的是,10月24日Google與Anthropic再次簽訂數百億美元100萬隻Google定製TPU晶片的合作協議,中泰證券預計2026年TPU出貨有望達到400萬顆以上。除Google外,微軟、Meta、亞馬遜AWS也都在探索自己的光交換網路。根據Lightcounting預測,2024-2029年OCS有望以28%復合增速增長;Lumentum、Coherent均在業績會表示,OCS產品均已產生收入。中泰證券建議重視GoogleAI算力產業鏈和OCS技術創新帶來的投資機會,重點關注中際旭創(Google光模組主供應商,海外子公司TeraHop推出矽光子OCS交換機),長芯博創(Google鏈光器件供應商),騰景科技(OCS主要產品種類較多,且在多種方案都有應用),德科立(iPronics聯合研發製造光波導方案OCS),光庫科技(收購武漢捷普,具有OCS業務),炬光科技(提供NXN大透鏡、精密設計V型槽陣列等產品),賽微電子(MEMS-OCS境內外產線分別服務於境內外知名客戶,具有多年經驗),凌雲光(壓電陶瓷方案國內稀有廠商)、光迅科技(OFC2024創新推出MEMS系列最新產品OCS)等。 (科創板日報)
親測太強了!2分鐘用Gemini 3 pro實現拍立得應用
看到網友使用Gemini 3 pro做的一個非常有趣的應用,由於原作者沒有說明實現過程,試著自己搞了一下,Gemini 3 pro實在是太強了,與其看別人的示例不如自己親手做一個,體驗一下,後面已經附上了實現過程,強烈建議大家試一下用Gemini 3 pro 2分鐘編寫一個拍立得相機應用,全程三次對話這個創意的原作者是一位網友@Ann Nguyen,她的實現效果如下:我實現的效果如下:實現過程打開Google AI studio,選擇側邊欄的build模型默認的就是Gemini 3 pro輸入提示詞:請幫我製作一個拍立得照相機應用,網頁左下角顯示一個相機,可以連接攝影機,即時顯示攝影機內容,點選拍攝按鈕,從相機頂部緩慢彈出一張相紙,從模糊到清晰顯示照片,可以將照片從相機上方拖動到頁面上相機之外的區域,像照片牆的效果拍立得相機實現請參考我上傳的圖片,相機還原請儘量真實一些,因為這個還原真實度影響整個體驗樂趣這裡試了好幾次,拍立得相機總是無法實現原作者的復古拍立得的效果,你可以選擇上傳一張你喜歡的拍立得相機照片,讓Gemini 3 pro 幫你實現相似的效果基本上用時2分鐘就把應用做出來了,全程三次對話(原作者說她用一次提示就做出來),核心是相機功能的實現,以及我為拍立得拍出來的照片提供了刪除和下載功能應用連結:https://ai.studio/apps/drive/1R4Xnb5IVbKveUIWpVmIFcqeu2ONum49i(AI寒武紀)